MySQL优化-索引优化

注意：所有文章除特别说明外，转载请注明出处.

MySQL - 索引优化

[TOC]
通过索引可以帮助我们解决大多数的SQL性能问题。

MySQL索引类比是一本书前面的目录，能加快数据库的查询速度。

在没有索引的情况下，数据库会遍历全部数据后选择符合条件的。而有了相应的索引之后，数据库会直接在索引中查找符合条件的选项。

提示：索引最大的优势在于将无序的数据变成有序的数据(相对)。

索引的数据结构

二叉树

因为在二叉搜索树中，左边的节点值比根节点值小，右边节点值比根节点值大，同时左右子节点都是排序树。

优点，可以解决大量数据索引无法一次加载进内存中问题，二叉搜索树可以批量加载数据进内存
缺点，检索时间与树的高度有关，树的高度越高，检索次数及时间相对就会越久。极端情况下，如果数据本身就是有序的，二叉搜索树会退化成链表，性能会急剧降低。

红黑树

红黑树是一种自平衡二叉树，主要解决二叉搜索树在极端情况下退化为链表的情况，在数据插入的时候同时调整整个树，使得其节点尽量均匀分布，保持平衡性，目的在于降低树的高度，提高查询效率。

优点，解决二叉搜索树的极端情况的退化问题
缺点，检索时间依旧与树的高度有关，当数据量很大时，树的高度就会很高，检索的次数就比较多，检索的时间会比较久，效率低。

哈希表

通过一定的算法计算数据的Hash值，然后得到数据的存放位置，例HashMap采用就是这种数据索引结构。

优点，检索时间快，平均检索时间为O(1)。
缺点，因为哈希值是通过算法计算出来的，存在Hash碰撞的可能，如HashMap对于Hash值相同的数据，会在Hash值所在桶创建一个链表，用于存放相同Hash值的数据。在数据量很大的情况下，内存无法加载全部的数据索引。

B树

B树是一种多路搜索树，每个子节点可以拥有多于2个子节点，M路的B树最多可拥有M个子节点。设计成多路，其目的是为了降低树的高度，降低查询次数，提高查询效率。

1. 叶节点具有相同的深度（通常为3-5）

2. 叶节点的指针为空

3. 节点中的数据索引从左到右递增排序

B+树

1. 非叶子节点不存储data，只存储索引，可以放更多的索引

2. 叶子节点不存储指针

3. 顺序访问指针，提高区间访问的性能

B树与B+树的区别

1. B+Tree中的非叶子结点不存储数据，只存储键值

2. B+Tree的叶子结点没有指针，所有键值都会出现在叶子结点上，且key存储的键值对应data数据的物理地址

3. B+Tree的每个非叶子节点由n个键值key和n个指针point组成

1.索引类型 normal | unique | full text

1.normal 普通索引

2.unique 唯一索引，不允许重复的索引

3.full text 表示全文搜索的索引

2.索引的存储分类

在MySQL中索引使用的数据结构主要有btree索引和哈希索引。

1 B树索引

MySQL中的btree索引使用的是B树中的B+Tree，但对于主要的两种存储引擎实现的方式是不同的。

MyISAM

B+Tree叶节点的data域存放的是数据记录的地址。

在索引检索的时候，首先按照B+Tree搜索算法搜索索引，如果指定的Key存在，则取出其 data 域的值，然后以 data 域的值为地址读取相应的数据记录。这被称为“非聚簇索引”。

InnoDB

其数据文件本身就是索引文件。

相比MyISAM，索引文件和数据文件是分离的，其表数据文件本身就是按B+Tree组织的一个索引结构，树的叶节点data域保存了完整的数据记录。

这个索引的key是数据表的主键，因此InnoDB表数据文件本身就是主索引。

这被称为“聚簇索引（或聚集索引）”。而其余的索引都作为辅助索引，辅助索引的data域存储相应记录主键的值而不是地址，这也是和MyISAM不同的地方。

在根据主索引搜索时，直接找到key所在的节点即可取出数据；在根据辅助索引查找时，则需要先取出主键的值，再走一遍主索引。

因此，在设计表的时候，不建议使用过长的字段作为主键，也不建议使用非单调的字段作为主键，这样会造成主索引频繁分裂。

2 哈希索引

哈希索引，底层的数据结构是哈希表，因此绝大多数需求为单条记录查询的时候，可以选择哈希索引，查询性能快。其余大部分场景使用btree索引。

哈希索引不适用于范围查找。

3 R树索引（空间索引）

空间索引是MyISAM的一个特殊索引类型，主要用于地理空间数据类型，通常使用较少。

4 全文索引(full text)

全文索引是MyISAM的一种特殊类型，主要用于全文索引。

MySQL索引

本部分细节都是基于MySQL的InnoDB引擎。我们清楚，索引类似于字典的目录，可以提高查询的效率。

1 索引的优点

1.通过创建唯一性索引，可以保证数据库表中每一行数据的唯一性。
2.可以大大加快数据的检索速度，这也是创建索引的最主要的原因。
3.可以加速表和表之间的连接，特别是在实现数据的参考完整性方面特别有意义。
4.在使用分组和排序 子句进行数据检索时，同样可以显著减少查询中分组和排序的时间。
5.通过使用索引，可以在查询的过程中，使用优化隐藏器，提高系统的性能。

2 索引的缺点

1.创建索引和维护索引要耗费时间，这种时间随着数据量的增加而增加。
2.索引需要占物理空间，除了数据表占数据空间之外，每一个索引还要占一定的物理空间，如果要建立聚簇索引，那么需要的空间就会更大。
3.当对表中的数据进行增加、删除和修改的时候，索引也要动态的维护，这样就降低了数据的维护速度。

3 索引的分类

1.普通索引：基本的索引，其没有任何的限制

2.唯一索引：与普通索引类似，不同的是MySQL数据库索引列的值必须唯一，但允许有空值。

3.主键索引：特殊的唯一索引，不允许有空值。

4.全文索引：表示全文搜索的索引。

5.单列索引和多列索引
    单列索引：表示只有一个字段的方式。
    多列索引：

注意：索引使用原则：1.选择唯一索引。 2.为经常需要排序 | 分组 | 联合操作的字段建立索引。3.为常作为查询条件的字段建立索引。4.限制索引的数目。5.尽量使用数据量少的索引。6.尽量使用前缀索引。7.删除不再使用或者很少使用的索引。8.不推荐同一列建立多个索引。9.经常更新或者修改的列不要建立索引。

1.最左前缀原则

在一张表中依据name字段来建立索引，采用B+树的结构。然后进行模糊查询。SQL语句如下所示：

select id from table where name like '张%'

这样这段SQL语句就会根据模糊查询对表进行向右的查询，直到没有满足条件的为止。所以这种从左至右的查询原则就是最左前缀原则。

2.B+树做索引，而非哈希表做索引原因

1.哈希表是将索引字段映射成对应的哈希码然后存放在对应的位置，这样的话如果要进行模糊查询的话显然哈希表这种结构是不支持的，只能遍历这个表。B+树可以通过最左前缀原则快速找到对应的数据。

2.哈希表不支持范围查找，只能遍历全表。

3.索引字段通过哈希映射成哈希码，如果很多字段都刚好映射到相同值的哈希码，则形成的索引结构会是一条很长的链表，查找的时间会大大增加。

3.主键索引与非主键索引的区别

非主键索引的叶子节点存放的是主键的值，而主键索引的叶子节点存放的是整行数据。其中非主键索引也被称为二级索引，主键索引被称为聚簇索引。

4.使用主键自增索引原因

如果使用的主键是自增的，那么每次插入的ID都会比前面的大，那么每次只需要在后面插入就行了，不需要移动位置和分裂操作等，这样能够提高性能。

5.索引优化策

1.不在索引列上进行运算或使用函数

因为在列上进行运算或者使用函数会使索引失效，从而进行全表扫描。

//这样会走索引
select * from table where id = '4'

//这样会走全表扫描
select * from table where id + 1 = 4

2.注意隐式类型转换

这里假设id为varchar类型：

//走全表扫描
select * from table where id = 100

//走索引扫描
select * from table where id = '100'

这里是因为隐式类型转换在索引字段上做了函数操作，所以会进行全表扫描。

3.前导模糊查询不会用到索引

%李、%李% 这样都会导致全表扫描，非前导模糊查询可以使用索引。

6.选择合适的列建立索引

1.在where从句，group by从句，order by从句，on从句中出现的列。
2.索引字段越小越好。

3.离散度大的列放到联合索引的前面：select * from payment where staff_id = 2 and customer_id = 584; 在这里建立索引是：(index(staff_id, customer_id)) 还是：index(customer_id, staff_id) 在这里因为customer_id离散度更大，所以应该使用index(customer_id, staff_id)。

7.索引的维护及优化重复及冗余索引

重复索引表示相同的列以相同的顺序建立同类型的索引，例如：在id为主键的时候，建立id索引和主键索引就是重复的索引。

1.查找重复及冗余索引

    使用 pt-duplicate-key-checker 工具检查重复及冗余索引 需要的参数是 用户名和密码

2.删除不用的索引

    通过使用 pt-index-usage 工具来进行索引使用情况的分析

SQL优化

MySQL慢查日志对有效率问题的SQL进行监控

//1.查看数据库是否开启检查日志
show variable like 'slow_query_log'

set global slow_query_log_file='/home/mysql/sql_log/mysql-slow.log'

通过show processlist 命令查看当前MySQL进行的线程

show processlist

通过show status命令了解各种SQL的执行频率

show [session | global] status

通过命令 show profile 分析SQL

show profiles | show profile

通过命令 trace 分析优化器如何选择执行计划

1. 打开trace，设置格式为JSON，设置trace能够使用的最大大小

Count()和Max()优化

max()函数

max()函数：如：查询最后支付时间 select max(payment_date) from payment;

优化：可以在表payment上建立一个索引 idx_paydate 在列 payment_date 。从而通过索引大大的减少了SQL执行时间，提高效率。

count()函数

count()函数：如：在一条sql中同时查出2005年和2006年电影的数量 select COUNT(release_year='2006' or null) as '2006年电影数量', count(release_year='2005' or null) as '2005年电影数量' from film;

注意：count()和count(id)查询的值是不一样的，count()查询的值会包括null值。

子查询优化

通常情况下，需要将子查询优化为join查询，但是在优化时要注意关联键是否有一对多的关系，需要注意重复数据。如果存在重复的数据，使用 distinct 命令去掉重复的数据。

explain select title, release_year, length from film where film_id IN(
    select film_id from film_actor where actor_id IN(
        select actor_id from actor where first_name = 'Aaron'
    )
)

GROUP BY优化

如果查询包括 GROUP BY 但用户想要避免排序结果的消耗，则可以指定 ORDER BY NULL禁止排序。

优化前：

    explain select actor.first_name, actor,last_name, COUNT(*) FROM sakia.film_actor INNER JOIN sakila.actor USING(actor_id) GROUP BY film_actor.actor_id;

优化后：

    explain select actor.first_name, actor.last_name, c.cnt from sakila.actor INNER JOIN(SELECT actor_id, COUNT(*) AS cnt from sakila.film_actor GROUP BY actor_id) AS c USING(actor_id);

limit 优化

limit常用于分页处理，经常会伴随order by从句使用，因此大多数时候会使用filesorts 这样会造成大量的 IO 问题。

select film_id, description from sakila.film order by title limit 50, 5;

1.使用有索引的列或主键进行 order by 操作

select film_id, description from saklia.film order by film_id limit 50, 5;

2.记录上次返回的主键，在下次查询时使用主键过滤

select film_id, description from saklia.film where film_id > 55 and film_id <= 60 order by film_id limit 1, 5;

注意：这里避免数据量大是扫描过多的记录。

OR优化

在含有OR的查询子句，如果要利用索引，则OR之间的每个条件列都必须用到索引，如果没有索引，则应该考虑增加索引。

优化分页查询

在一般分页查询时，通过创建覆盖索引能够比较好的提高性能

SQL技巧

正则表达式

^ 字符串开始处进行匹配

$ 字符串末尾处进行匹配

. 匹配任意单个字符

[...] 匹配出括号内的任意字符

[^...] 匹配非括号内的任意字符

a* 匹配零个或多个a字符（包括空串）

a+ 匹配1个或多个a（不包括空串）

a? 匹配1个或零个a

a1 | a2 匹配a1或a2

...